问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

java 爬虫登陆网页

发布网友 发布时间:2022-04-26 22:08

我来回答

5个回答

热心网友 时间:2022-04-27 17:18

最简单的办法就是 在论坛页面审查元素,找到登录按钮,找到他的action,把它传到你的程序里面就好了,比如我现在回答你的问题,下面的提交回答按钮也会有一个action

追问你是指的‘alog-action’吗?那我怎么才能输入我的用户名和密码,然后出发这个action

追答提交动作是很有多种的 我不知道你说的论坛登录是用的哪一种,所以我也说不好
但是大多会有一个id 或者name 作为特殊的标记 然后在java脚本中写函数 还有的是用submit提交表单的方式上传信息.
所以具体怎么样还得你自己分析
至于用户名和密码,一样的审查元素找到这两个,一般是input type="USERNAME"跟"PASSWORD" value值就是输入的用户名密码,把你要输入的用户名密码传给value就好了

热心网友 时间:2022-04-27 18:36

在做爬虫时,遇到需要登陆的问题也比较常见,比如写脚本抢票之类的,但凡需要个人信息的都需要登陆,对于这类问题主要有两种解决方式:一种方式是手动设置 cookie ,就是先在网站上面登录,复制登陆后的 cookies ,在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性,这种方式适用于采集频次不高、采集周期短,因为 cookie 会失效,如果长期采集的话就需要频繁设置 cookie,这不是一种可行的办法,第二种方式就是使用程序模拟登陆,通过模拟登陆获取到 cookies,这种方式适用于长期采集该网站,因为每次采集都会先登陆,这样就不需要担心 cookie 过期的问题。

热心网友 时间:2022-04-27 20:11

一个简单的

package webspider;
import 
java.util.HashSet;
import java.util.PriorityQueue;
import 
java.util.Set;
import java.util.Queue;
 
public class LinkQueue {
 // 已访问的 url 集合
 private static Set visitedUrl 
= new HashSet();
 // 待访问的 url 集合
 private static Queue unVisitedUrl = new 
PriorityQueue();
 // 获得URL队列
 public static Queue getUnVisitedUrl() {
  return 
unVisitedUrl;
 }
 // 添加到访问过的URL队列中
 public static void addVisitedUrl(String url) 
{
  visitedUrl.add(url);
 }
 // 移除访问过的URL
 public static void removeVisitedUrl(String url) 
{
  visitedUrl.remove(url);
 }
 // 未访问的URL出队列
 public static Object unVisitedUrlDeQueue() {
  return 
unVisitedUrl.poll();
 }
 // 保证每个 url 只被访问一次
 public static void addUnvisitedUrl(String url) 
{
  if (url != null && !url.trim().equals("") && 
!visitedUrl.contains(url)
    && 
!unVisitedUrl.contains(url))
   unVisitedUrl.add(url);
 }
 // 获得已经访问的URL数目
 public static int getVisitedUrlNum() {
  return 
visitedUrl.size();
 }
 // 判断未访问的URL队列中是否为空
 public static boolean unVisitedUrlsEmpty() 
{
  return unVisitedUrl.isEmpty();
 }
}

配合极光HTTP使用更佳

热心网友 时间:2022-04-27 22:02

去论坛查看下页面源码,找到登录请求,模拟这个请求。

热心网友 时间:2022-04-28 00:10

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
华为freebuds4i切歌怎么操作_华为freebuds4i怎么切歌 华为freebuds pro切歌方法_华为freebuds pro怎么切歌 华为耳机怎么切换下一曲 欧美电影,好像是宠物有一个世界,宠物会想办法跟主人的灵魂互换占据 ...的名字,欧洲中世纪,一个王子的继母把他的灵魂和狗的灵魂互换了... 问一部外国电影的名字 剧情记得不大清楚l了 是前几年的片子 灵魂互换的... HUAWEI 华为 AGS2-W09 10.1英寸平板电脑 (香槟金、64GB+4GB、WiFi版... 诛仙3百法和千法差距大吗 微信怎么解除应用授权登录 授权应用删除方法 微信怎么解除应用授权登录授权应用删除方法 情侣两个人都是处女座在一起好不好? 信息技术应用创新对江苏未来的发展有哪些意义? 情侣之间都是怎么聊天的 西奥电梯怎么样? 为什么很多情侣都是一开始男生追女生 后来女生追男生? 现在的情侣都是如何维持婚姻的? 你所知道的大多数情侣都是因为什么而分手的? 聪明的情侣都是如何相处的? 情侣都是分分合合的吗 现在是不是很多情侣都是接触不久就睡一起了 情侣都是怎么分手的? 是不是每对情侣都是因为相爱才结婚啊? 正常情侣都是分分合合的吗? 情侣都是学计算机的是一种怎样的体验? 情侣都是每天接吻嘛 是不是每对情侣都同居都发生关系了? 祝天下所有的情侣都是 altium designer怎么绘制td 62783的芯片 什么叫高压源驱动 芯片TD62783 CD4094级联后,并口的数据通过TD62783给数码管,通过2803片选数码管,那每次送数据后数码管怎么单个控制? 每对情侣都应该有的恋爱目标是什么呢? 怎么用Java爬虫模拟登陆山大教务系统获取自 情侣之间都是因为什么吵架?看到的都来说说吧! 我跟我前男朋友,什么都吵,吃个饭也能吵架,走个路也能吵 java网络爬虫怎么实现登陆网站 0.0 腹式呼吸的正确姿势,你做对了吗? java爬虫模拟登陆后怎么把请求的url的cookie保存下来,并添加到待爬取的url上?在线等! Java爬虫QQ空间? java怎么抓取需要登录后的网站数据 java网络爬虫抓取登录后信息之前获取cookie求帮忙 steam的ID在哪里看得到 我的dota2steamid在哪里看? 利用自己的java/jsp代码.登陆其他网站. steam在哪里接受礼物 httpclient ajax java爬虫 在哪里找steam? steam平台在设置--账号中验证邮箱在哪? 小米5s plus呼叫转移怎么设置? 小米5s怎么呼叫转移 手机丢失而且被关机如何定位? 苹果7IOS12系统怎么升级